检测稀有物体(例如,交通锥,交通桶和交通警告三角形)是提高自动驾驶安全性的重要感知任务。对此类模型的培训通常需要大量的注释数据,这些数据既昂贵又耗时。为了解决上述问题,新兴的方法是应用数据扩展以自动生成无成本的培训样本。在这项工作中,我们提出了一项有关简单复制数据增强的系统研究,以实现自动驾驶中罕见的对象检测。具体而言,引入了本地自适应实例级图像转换,以生成从源域到目标域的逼真的稀有对象掩模。此外,流量场景上下文被用来指导稀有物体的口罩的放置。为此,我们的数据增强通过利用本地和全球一致性来生成具有高质量和现实特征的培训数据。此外,我们构建了一个新的数据集,稀有对象数据集(ROD),组成10K培训图像,4K验证图像和相应的标签,这些标签具有不同的自动驾驶方案。 ROD上的实验表明,我们的方法在稀有物体检测方面取得了有希望的结果。我们还提出了一项详尽的研究,以说明基于局部自适应和全球限制因素的副本数据增强的有效性,以实现稀有对象检测。数据,开发套件和ROD的更多信息可在线获得:\ url {https://nullmax-vision.github.io}。
translated by 谷歌翻译
我们从一组未配对的清晰和朦胧的图像中提供了实用的基于学习的图像飞行网络。本文提供了一种新的观点,可以将图像除去作为两类分离的因子分离任务,即清晰图像重建的任务相关因素以及与雾霾相关的分布的任务含量。为了在深度特征空间中实现这两类因素的分离,将对比度学习引入了一个自行车框架中,以通过指导与潜在因素相关的生成的图像来学习分离的表示形式。通过这种表述,提出的对比度拆除的脱掩护方法(CDD-GAN)采用负面发电机与编码器网络合作以交替进行更新,以产生挑战性负面对手的队列。然后,这些负面的对手是端到端训练的,以及骨干代表网络,以通过最大化对抗性对比损失来增强歧视性信息并促进因素分离性能。在培训期间,我们进一步表明,硬性负面例子可以抑制任务 - 无关紧要的因素和未配对的清晰景象可以增强与任务相关的因素,以便更好地促进雾霾去除并帮助图像恢复。对合成和现实世界数据集的广泛实验表明,我们的方法对现有的未配对飞行基线的表现良好。
translated by 谷歌翻译
顺序推荐是推荐系统的广泛流行的主题。现有的作品有助于提高基于各种方法的顺序推荐系统的预测能力,例如经常性网络和自我关注机制。然而,他们未能发现和区分项目之间的各种关系,这可能是激励用户行为的潜在因素。在本文中,我们提出了一个边缘增强的全面解散图神经网络(EGD-GNN)模型,以捕获全局项目表示和本地用户意图学习项目之间的关系信息。在全球级别,我们通过所有序列构建全局链接图来模拟项目关系。然后,频道感知的解缠绕学习层被设计成将边缘信息分解为不同的信道,这可以聚合以将目标项从其邻居表示。在本地层面,我们应用一个变化的自动编码器框架来学习用户在当前序列上的意图。我们在三个现实世界数据集中评估我们提出的方法。实验结果表明,我们的模型可以通过最先进的基线获得至关重要的改进,能够区分项目特征。
translated by 谷歌翻译
3D车道检测是自动驾驶系统的组成部分。以前的CNN和基于变压器的方法通常首先从前视图图像中生成鸟类视图(BEV)特征映射,然后使用带有BEV功能映射的子网络作为输入来预测3D车道。这种方法需要在BEV和前视图之间进行明确的视图转换,这本身仍然是一个具有挑战性的问题。在本文中,我们提出了一种基于单阶段变压器的方法,该方法直接计算3D车道参数并可以规避困难的视图变换步骤。具体而言,我们通过使用曲线查询来将3D车道检测作为曲线传播问题。 3D车道查询由动态和有序的锚点集表示。通过这种方式,在变压器解码器迭代中具有曲线表示的查询可完善3D车道检测结果。此外,引入了曲线交叉意见模块,以计算曲线查询和图像特征之间的相似性。此外,提供了可以捕获曲线查询更多相对图像特征的上下文采样模块,以进一步提高3D车道检测性能。我们评估了合成数据集和现实数据集的3D车道检测方法,实验结果表明,与最先进的方法相比,我们的方法实现了有希望的性能。每个组件的有效性也通过消融研究验证。
translated by 谷歌翻译
归纳链路预测(ILP)是考虑到新兴知识图(kgs)中未见实体的联系,考虑到KGS的发展性质。一个更具挑战性的场景是,新兴的kg仅由看不见的实体组成,被称为已断开新兴kgs(DEKGS)。 DEKGS的现有研究仅专注于预测封闭链接,即预测新兴KG内部的联系。到目前为止,先前的工作尚未对将进化信息从原始KG到DEKG进行进化信息。为了填补空白,我们提出了一个名为DEKG-ILP的新型模型(由以下两个组成部分组成的dekg-ilp(断开新兴知识图形的归纳链路预测)。 (1)模块CLRM(基于对比的关系特定特征特征建模)是为了提取基于全球关系的语义特征而开发的,它们在原始KGS和DEKGS之间以新颖的采样策略共享。 (2)提出了模块GSM(基于GNN的子图建模),以提取围绕KGS中每个链接的局部子图拓扑信息。在几个基准数据集上进行的广泛实验表明,与最新方法相比,DEKG-ILP具有明显的性能改进,用于封闭和桥接链路预测。源代码可在线获得。
translated by 谷歌翻译
当前的场景图生成研究(SGG)着重于解决生成无偏见的场景图的长尾问题。但是,大多数偏见的方法都过度强调了尾巴谓词,并低估了整个训练的头部,从而破坏了头部谓词特征的表示能力。此外,这些头部谓词的受损特征会损害尾巴谓词的学习。实际上,尾巴谓词的推论在很大程度上取决于从头部谓词中学到的一般模式,例如“站在”上“依赖”。因此,这些偏见的SGG方法既不能在尾巴谓词上实现出色的性能,也不能满足头部的行为。为了解决这个问题,我们提出了一个双分支混合学习网络(DHL),以照顾SGG的头部谓词和尾巴,包括粗粒度的学习分支(CLB)和细粒度的学习分支(FLB) 。具体而言,CLB负责学习专业知识和头部谓词的鲁棒特征,而FLB有望预测信息丰富的尾巴谓词。此外,DHL配备了分支课程时间表(BCS),以使两个分支机构一起工作。实验表明,我们的方法在VG和GQA数据集上实现了新的最新性能,并在尾巴谓词和头部的性能之间进行了权衡。此外,对两个下游任务(即图像字幕和句子到刻画检索)进行了广泛的实验,进一步验证了我们方法的概括和实用性。
translated by 谷歌翻译
当前场景图(SGG)模型的性能受到难以弥补的谓词的严重阻碍,例如,女性与女性/站立/站立/步行。由于通用SGG模型倾向于预测头部谓词和重新平衡策略,因此偏爱尾巴类别,因此没有一个可以适当处理难以呈现的谓词。为了解决这个问题,受到细粒图像分类的启发,该图像分类的重点是区分难以弥补的对象,我们提出了一种自适应的细粒谓词学习(FGPL-A),旨在区分SGG难以区分的谓词。首先,我们引入了一个自适应谓词晶格(PL-A),以找出难以辨认的谓词,该谓词可以适应地探索与模型的动态学习步伐保持一致的谓词相关性。实际上,PL-A是从SGG数据集初始化的,并通过探索模型的当前迷你批量预测来完善。利用PL-A,我们提出了一个自适应类别区分损失(CDL-A)和一个自适应实体区分损失(EDL-A),该实体逐渐使模型的歧视过程逐渐使模型的歧视过程正规化,从而确保模型的动态学习状态,以确保平衡,有效,有效,有效,有效地进行了平衡,并确保了平衡和高效的模型。学习过程。广泛的实验结果表明,我们提出的模型不足的策略可显着提高VG-SGG和GQA-SGG数据集对基准模型的性能,最多可提高175%和76%的平均Recess@100,从而实现新的最新性能。此外,对句子到图形检索和图像字幕任务的实验进一步证明了我们方法的实用性。
translated by 谷歌翻译
场景图生成(SGG)代表对象及其与图形结构的交互。最近,许多作品致力于解决SGG中的不平衡问题。但是,在整个训练过程中低估了头部谓词,他们破坏了为尾部提供一般特征的头部谓词的特征。此外,对尾部谓词的过多注意会导致语义偏差。基于此,我们提出了一个新颖的SGG框架,学习以从头到尾生成场景图(SGG-HT),其中包含课程重新定位机制(CRM)和语义上下文上下文模块(SCM)。 CRM首先学习头/简单样品,以获得头部谓词的稳健特征,然后逐渐专注于尾部/硬质。建议通过确保在全球和局部表示中生成的场景图与地面真相之间的语义一致性来缓解语义偏差。实验表明,SGG-HT显着减轻了视觉基因组上最先进的表现。
translated by 谷歌翻译
伯德眼景(BEV)中的语义细分是自动驾驶的重要任务。尽管这项任务吸引了大量的研究工作,但灵活应对在自动驾驶汽车上配备的任意(单个或多个)摄像头传感器仍然具有挑战性。在本文中,我们介绍了BEVSEGFORMER,这是一种有效的基于变压器的方法,用于从任意摄像机钻机中进行BEV语义分割。具体而言,我们的方法首先编码带有共享骨架的任意摄像机的图像功能。然后,这些图像功能通过基于变压器的编码器增强。此外,我们引入了BEV变压器解码器模块以解析BEV语义分割结果。有效的多相机可变形注意单元旨在进行BEV-to-to-image视图转换。最后,查询是根据BEV中网格的布局重塑的,并以监督方式进行了更大的采样以产生语义分割结果。我们在公共Nuscenes数据集和自收集的数据集上评估了所提出的算法。实验结果表明,我们的方法在任意摄像机钻机上实现了BEV语义分割的有希望的性能。我们还通过消融研究证明了每个组件的有效性。
translated by 谷歌翻译
近年来见证了基于地点的社交网络(LBSN)服务的日益普及,这为构建个性化的兴趣点(POI)推荐系统提供了无与伦比的机会。现有的POI推荐和位置预测任务利用过去的信息来从单个方向角度使用过去的推荐或预测,而缺少的POI类别识别任务需要在缺少类别之前和之后使用检查信息。因此,长期存在的挑战是如何在移动用户的现实检查数据中有效地识别丢失的POI类别。为此,在本文中,我们提出了一种新的神经网络方法,通过整合双向全球非个人转换模式和用户的个人喜好来识别缺失的POI类别。具体而言,我们精致地设计了一个关注匹配的单元格,以模拟登记类别信息如何与他们的非个人转换模式和个人偏好匹配。最后,我们在两个现实世界数据集中评估我们的模型,与最先进的基线相比,这明确验证了其有效性。此外,我们的模型可以自然扩展,以解决具有竞争性能的下一个POI类别推荐和预测任务。
translated by 谷歌翻译